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摘 要 


本 文 对 基于 神经 网 络 的 自然 语言 处 理 方 法 中 的 子 词 切 分 〈Subword Tokenization) 方法 进行 
了 综述 。 本 文 首先 解释 了 基于 神经 网 络 的 自然 语言 处 理 方 法 中 面临 的 由 于 封闭 词 表 (Closed 
Vocabulary) 所 导致 的 集 外 词 (Out-of-Vocabulary， 简 称 DOV) 问题 ， 并 介绍 了 解决 这 一 方法 
常见 的 Byte-Pair Encoding 〈 简 称 BPE)、WordPiece 和 Unigram 三 种 方法 。 子 词 切 分 之 前 通常 需 
要 做 词语 切 分， 而 词语 切 分 是 跟 具 体 语 言 高 度 相 关 的 。SentencePiece 提 供 了 一 种 与 语言 无 
关 的 子 词 切 分 方法 ， 可 以 在 输入 的 多 子 上 直接 做 子 词 切 分 ， 无 需 先 做 词语 切 分 。 子 词 切 分 
有 时 会 存在 一 些 切 分 不 合理 和 子 词 表示 学 习 不 够 充分 的 问题 ， 本 文 随 后 介绍 了 解决 这 一 问 
题 的 子 词 正则 化 技术 和 BPE-Dropout 技 术 。 基 于 字符 的 子 词 切 分 在 面 对 多 语言 〈 特 别 是 中 日 
韩 等 语言 ) 的 大 字符 集 时 依然 存在 OOV 问 题 ， 本 文 将 介绍 解决 这 一 问题 的 一 种 有 效 手 段 : 基 


于 UTF-8 字 节 的 BPE 技 术 (Byte LevelBPE， 简 称 BBPE)， 及 其 衍生 的 基于 BBPE 的 SentencePiece 方 


案 。 最 后 本 文 介绍 了 ACL2021 最 佳 论文 所 提出 的 一 种 通用 的 词 表 最 优化 技术 VOLT。 
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问题 由 来 


1.1 封闭 词 表 假设 〈Colsed Vocabulary Assumption) 和 集 外 词 (Out-of-Vocabulary) 


问题 


自然 语言 处 理 (NLP) 所 面临 的 文本 的 词 表 (Vocabulary)， 通 常 是 开放 的 ， 并 没有 任 


rH 


定 文本 中 不 能 出 现 某 些 词 。 但 作为 一 个 自然 语言 处 理 系 统 ， 通 常 都 要 假设 所 处 理 的 词 限 定 
个 有 限 的 词 表 范围 内 ， 这 个 假设 称 为 封闭 词 表 假设 (Closed Vocabulary Assumption) [1]. 


是 对 于 基于 


何 规 
在 一 
尤其 


经 网 络 的 自然 语言 处 理 方法 ， 由 于 我 们 需要 把 每 一 个 词 事先 映射 到 一 个 词 嵌入 表 


示 (Embedding)， 对 于 预定 义 词 表 以 外 的 词 〈 又 称 为 集 外 词 ， 或 者 OurofVocabulary Word, fi 
称 0OV)， 我 们 是 无 法 预知 其 嵌入 表示 的 ， 因 此 也 无 法 处 理 。 这 就 是 自然 语言 处 理 系统 所 
的 集 外 词 问题 〈 简 称 OOV 问 题 ) 。 


12 解决 办 法 之 一 : 集 外 词 蔡 换 为 UNK 


早期 基于 神经 网 络 的 自然 语言 处 理 系 统 ， 对 这 一 问题 通常 采用 一 个 简单 粗暴 的 方法 : 


TN 


将 所 


有 集 外 词 统 一 替换 为 为 UNK， 意 为 未 知 词 (Unknown Word) 。 但 这 种 做 法 显然 不 完美 ， 原 因 有 


以 下 几 点 : 


。 很 多 集 外 词 虽 然 在 训练 数据 中 没有 出 现 过 ， 但 其 意义 并 不 是 完全 不 可 知 的， 相反 ， 相 当 多 
的 集 外 词 的 意义 是 可 以 从 已 知 词 推导 出 来 的 ， 把 它们 都 葵 换 成 UNK， 就 无 法 利用 这 些 词 


的 语 


。 在 自 


义 信息 。 比 如 说 : 


屈折 变化 词 : 对 某 些 词 ， 词 
攻 容 词 比 较 级 、 最 高 级 、 动 词 现在 分 词 、 过 去 分 词 等 )， 这 些 没有 收录 的 变化 形式 就 


表 中 可 能 没有 收录 其 所 有 的 变化 形式 〈 如 英语 名 词 复数 、 


会 被 识别 为 集 外 词 ， 如 词 集中 可 能 有 cascade， 但 没有 cascaded; 
- 复合 词 : 比如 hard-working、thirteen-years 等 ; 


数 词 : 数 词 是 不 可 能 全 收 的 


然 语言 理解 NLU) 任务 中 ， 出 现 UNK 的 问题 还 不 太 大 ， 对 系统 性 能 的 影响 不 会 乱 


严重 


， 但 在 自然 语言 生成 (NLG) 任务 中 ， 如 机 器 翻译 、 对 话 生成 等 任务 中 ， 生 成 的 句子 
中 如 果 出 现 很 多 UNK 是 很 严重 的 问题 ， 用 户 会 无 法 接受 。 简 单 删 掉 这 些 UNK 又 会 使 得 名 
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通顺 。 


， 没 有 收录 的 数 词 都 会 成 为 集 外 词 。 


13 解决 办 法 之 二 : 基于 字符 的 模型 


基于 字符 的 模型 


巴 模型 建立 在 字符 的 基础 上 ， 词 的 表示 (word embedding) 通过 字符 的 表 


示 (character embedding) 经 过 一 个 神经 网 络 计算 得 到 。 基 于 字符 的 模型 可 以 较 好 地 解决 OOV 问 
题 ， 但 也 会 带 来 序列 长 度 的 大 大 增加 ， 


了 达到 类 似 的 和 
而 对 于 中 日 


而 模型 处 理 长 序列 的 难度 比 处 理 短 序列 大 得 多 。 通 常 为 


能 ， 基 于 字符 的 模型 需要 要 比 基 于 词 的 模型 要 复杂 得 多 。 
韩 〈《CJK) 语言 这 样 的 大 字符 集 语言 来 说 ， 基 于 字符 的 模型 需要 的 词 表 依然 太 


Ke Unicode 1.0.1 (1992) 定义 的 CJK 统 一 字符 集 已 经 有 20902 个 字符 ， 而 最 新 的 Unicode 14.0 
(2021) 已 经 包含 字符 总 数 144,697 个 ， 把 这 么 多 的 字符 全 部 收入 模型 ， 是 不 合理 的 。 而 且 绝 大 
部 分 字符 都 是 罕 用 字符 ， 使 用 概率 极 低 ， 全 部 收入 词 表 会 大 大 增加 模型 参数 。 不 仅 如 此 ， 由 于 
每 次 生成 一 个 字符 需要 在 整个 词 表 上 做 softmax 操 作 ， 如 此 大 的 词 表 ， 而 且 词 表 中 大 部 分 都 是 罕 
会 导致 模型 推理 效率 大 大 降低 。 
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2 BPE 和 WordPiece: iA) (subword) 级 别 的 词 表 构 造 和 子 词 切 分 方法 


2.1 ia] (subword) 级 别 的 切 分 : 解决 集 外 词 问题 的 有 效 手段 
如 前 所 述 ， 词 级 别 的 词 表 无 法 解决 集 外 词 O0V 问 题 ， 而 字符 级 别 的 词 表 又 存在 模型 复杂 度 


高 和 效率 低 的 问题 。 为 此 ， 学 者 们 所 


了 子 词 (Subword) 级 别 的 词 表 构造 和 切 分 方法 [2-3]， 可 


以 较 好 地 解决 这 一 问题 。 子 词 级 切 分 方案 的 基本 思想 是 : 


。 词 表 


只 收录 固定 的 子 词 集合 ; 


。 任 何 一 个 词 ， 如 果 不 在 词 表 中 ， 就 需要 被 切 分 成 子 词 序列 Csubword token sequence ) 。 


这 种 方法 的 优点 有 : 


。 彻 底 


解决 了 集 外 词 O0V 问 题 ， 任 何 一 个 单词 都 可 以 切 分 成 子 词 序 列 。 最 坏 情 况 下 ， 所 有 
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不 上 ， 就 会 切 分 成 字符 序列 ; 


。 大 部 分 常用 词 都 可 以 作为 独立 子 词 收入 词 表 ， 这 样 的 话 原始 的 基于 词 的 模型 无 需 做 任何 

改动 ， 序 列 长 度 增 加 很 少 ， 模 型 复杂 度 和 效率 都 几乎 没有 增加 。 

接 下 来 的 问题 是 : (1) 如 何 确定 基本 的 子 词 词 表 ?( 子 词 词 表 构 造 问 题 ) (2) 如 果 确 定 了 子 
词 词 表 ， 如 何 将 句子 切 分 成 子 词 序列 ?( 子 词 切 分 问题 ) 

对 于 大 部 分 西方 语言 ， 一 种 很 容易 想到 的 方法 ， 是 将 词语 切 分 成 词根 和 词 经， 词根 和 词缀 
就 是 子 词 。 但 这 种 办 法 有 以 下 问题 : (1) 不 是 所 有 的 词 都 可 以 切 分 成 词根 和 词缀 的 ， 比 如 外 来 
词 和 数 词 等 ，(2) 词语 切 分 成 词根 词 级 的 过 程 通 常 被 称 为 形态 分 析 (morphological analysis) 或 
者 词法 分 析 (exical analysis ) ， 而 这 个 过 程 是 跟 语 言 高 度 相 关 的 ， 无 法 做 到 语言 通用 性 。 

目前 ， 最 流行 的 两 种 构造 子 词 词 表 和 子 词 切 分 的 方法 分 别 是 BPE 和 WordPiece， 还 有 一 种 使 
用 较 少 的 Unigram 方 法 ， 下 面 我 们 分 别 介绍 。 


2.2 Byte-Pair Encoding (BPE) 


BPE 最 早 是 作为 一 种 压缩 算法 提出 来 的 ，[2] 首 次 提出 将 BPE 算 法 用 于 子 词 级 切 分 ， 以 解决 
神经 机 器 翻译 的 集 外 词 问 题 ， 效 果 非 常 明 显 。 很 快 ， 这 一 方法 也 被 用 于 其 他 解决 其 他 问题 ， 并 
成 为 基于 神经 网 络 的 NLP 模型 中 最 为 流行 的 子 词 切 分 方法 。 

采用 BPE 算 法 做 词 例 切 分 ， 首 先 需 要 使 用 语料库 构造 一 个 子 词 词 表 (Vocabulary)。 下 面 我 
以 表 1 为 例 将 构造 子 词 词 表 的 过 程 介 绍 如 下 : 

1. 预 处 理 文本 ， 得 到 一 部 词典 (Dictionary)， 词 典 中 包含 文本 中 出 现 的 所 有 单词 ， 以 
及 该 单词 出 现 的 频率 ; 

2. 将 词典 中 所 有 的 单词 切 分 成 基本 字符 的 序列 ， 字 符 和 字符 之 间 加 上 一 个 空格 ; 

3. 初始 化 子 词 词 表 (Vocabulary)， 词 表 只 包含 所 有 的 基本 字符 (如 字母 、 数 字 、 标 
点 、 汉 字 等 ) 构成 的 子 词 subword; 

4. 重复 以 下 过 程 ， 每 一 步 将 子 词 词 表 中 的 两 个 子 词 合 并 (merge) 得 到 一 个 新 的 子 词 
加 到 词 表 末尾 ， 直 到 子 词 词 表 Vocabulary 的 长 度 达到 预 设 值 : 

(a) 在 词典 中 选择 出 现 频率 最 高 的 子 词 对 儿 Csubword pair); 

(b) 将 上 述 子 词 对 儿 合 并 成 一 个 新 的 子 词 ， 并 到 子 词 词 表 Vocabulary 末 尾 ; 

O 在 词典 中 出 现 的 所 有 上 述 子 词 对 儿 都 合并 成 新 加 入 子 词 〈 删 掉 原 来 两 个 子 词 
之 间 的 空格 ); 

5. 返回 词 表 。 

基于 BPE 的 子 词 切 分 〈subword tokenization) 非常 简单 : 对 于 一 个 给 定 的 文本 ， 首 先 把 单词 
之 间 的 空白 都 替换 成 </w>， 然 后 把 所 有 单词 都 切 分 成 字符 《任何 两 个 字符 直接 都 加 一 个 空格 )， 
然后 根据 BPE 的 子 词 词 表 从 前 往 后 ， 对 于 每 个 合并 merge) 形成 的 子 词 ， 在 文本 中 反复 执行 其 
对 应 的 合并 操作 ， 直 到 所 有 合并 操作 都 执行 完毕 。 


2.3 WordPiece 


Google 最 早 在 [4] 中 介绍 了 WordPiece 的 思想 ， 但 并 没有 命名 这 个 算法 。 在 论文 [3] 中 Google 首 
次 提 到 在 神经 机 器 翻译 系统 中 使 用 了 WordPiece 做 文本 的 子 词 切 分 。 后 来 Google 在 BERT 中 再 次 


freq || step 0 step | step 2 step 3 step 4 step 5 
5 low </w> l o w </w> low </w> l o w </w> lo w </w> low </w> 
2 lo w er </w> lo w er </w> lower</w> | lower</w> | lower</w> | low er </w> 
6 newest</w> | newest </w> | newest </w> | ne west</w> | ne west</w> | ne west</w> 
3 widest</w> | widest</w> | widest </w> | widest</w> | widest</w> | wid est</w> 
freq || 7 | 7 | 13 16 17 121619191313 9 9 9 7 7 
stepO | 1 | o | w }| </w>}] e |rjn/s}|tyijfd 
step1 | 1 | o | w }| </w>] e rinls|lt|ild | ets 
step2 | 1 | o | w | </w> | e | r}]nj]s i]t |i fd | ets | estt 
step3 | 1 | o | w | </w> | e |r] ni] s ]t |i} d i] ets | estt | estt</w> 
step4 | 1 |} o | w | </w> | e rin sl|lt|ild | ets | estt | est+</w> | Ito 
step5 | 1 | o | w | </w> | e |r| njs | t |i | d || ets | estt | estt</w> | Ito | lotw 
表 1: BPE 子 词 切 分 过 程 示例 ， 上 表 为 词典 Dictionary， 下 表 为 子 词 词 表 Vocabulary。 表 中 </w> 是 一 个 特 
殊 字符 ， 用 于 表示 一 个 单词 的 结尾 。step 0 是 初始 化 的 词典 和 子 词 词 表 ， 其 他 每 一 个 step 将 出 现 频率 最 


高 subword pair 合 并 成 一 个 新 的 subword， 并 加 在 子 词 词 表 末 尾 。 


使 用 了 WordPiece， 使 得 WordPiece 影 响 大 增 。 但 Google 并 没有 开源 WordPiece 的 词 表 构 造 算 法 ， 
也 没有 公开 源 代 码 。 好 在 BERT 的 代码 中 还 是 包括 了 WordPiece 的 词 例 切 分 工具 (Tokenizer)， 所 


以 如 果 研 究 者 们 不 想 构造 自己 的 子 词 词 表 ， 还 是 可 以 直接 使 用 BERT 提 供 的 词 表 和 词 例 切 分 工 


E 


具 做 研究 的 。 后 来 Huggingface 的 工具 包 中 也 提供 了 一 个 WordPiece 模 型 的 训练 工具 ， 但 他 们 并 没 


有 真正 使 用 [4] 中 的 算法 ， 实 际 上 还 是 使 用 BPE 方 法 来 构造 了 一 个 子 词 词 表 ， 只 是 把 生成 的 词 表 
改 成 了 BERT 提 供 的 WordPiece 数 据 格式 。 
WordPiece 的 子 词 词 表 构造 算法 跟 BPE 非 常 相 似 ， 也 是 一 个 从 基本 字符 集 开始 逐渐 合并 的 


过 程 ， 每 次 合并 都 在 词 表 中 增 


加 一 个 新 的 子 词 。 区 别 在 于 ，BPE 在 合并 两 个 子 词 的 时 候 ， 只 


需要 计算 两 个 子 词 连续 出 现 的 概率 ， 而 WordPiece 则 复杂 得 多 。WordPiece 首 先 需 要 根据 给 定 的 
子 词 词 表 构造 一 个 n-gram 语言 模型 ， 然 后 用 这 个 语言 模型 可 以 计算 整个 训练 数据 出 现 的 似 然 率 


(likelihood)。 合 并 的 时 候 ， 考 虑 所 有 的 子 词 对 儿 (subword pair)， 根 据 该 子 词 对 儿 合并 后 得 到 
的 新 的 语言 模型 计算 整个 训练 数据 的 似 然 率 ， 选 择 导致 整个 训练 数据 似 然 率 最 高 的 那个 子 词 对 
儿 进 行 合 并 。 这 个 过 程 比较 复杂 ， 计 算 代 价 很 高 。Google 估 计 是 设计 了 某 种 优化 算法 才 有 可 能 
实现 高 效 的 词 表 构 建 ， 但 这 个 算法 没有 公开 。 


推理 时 ，WordPiece 子 词 切 分 采用 从 左 到 右 的 最 大 匹配 方法 ， 也 就 是 一 种 贪心 方法 ， 非 常 简 


单 。 实 际 上 BPE 的 子 词 切 分 也 可 以 采用 这 种 方法 ， 效 果 跟 自 底 向 上 合并 (merge) 的 方法 上 应 该 


没有 太 大 区 别 。 


2.4 Unigram 


Google 还 提出 了 另外 一 种 词 表 构 造 方法 ， 叫 做 Unigram 方 法 [5]。Unigram 跟 WordPiece 一 样 


~ 


也 采用 了 语言 模型 来 决定 词 表 


FP 是 否 收 录 菜 个 子 词 。WordPiece 原 始 论 文 [4] 并 没有 明确 说 明 所 使 


用 的 语言 模型 ， 而 Unigram 方 法 使 用 的 是 一 元 语法 语言 模型 ， 这 也 是 这 种 方法 取 名 为 Unigram 的 
原因 。 不 过 跟 BPE 和 WordPiece 不 同 的 是 ，Unigram 构 造 词 表 的 方式 不 是 先 构造 字符 级 别 词 表 ， 再 


通过 合并 操作 逐渐 往 词 表 中 增加 新 的 子 词 ， 相 反 ，Unigram 先 构造 一 个 大 的 子 词 词 表 〈 比 如 收录 
语料库 中 所 有 词 )， 然 后 再 逐渐 删除 词 表 中 的 子 词 〈 把 罕见 的 子 词 切 分 成 两 个 更 常见 的 子 词 )， 
直到 词 表 长 度 达 到 预定 的 值 。Unigram 词 表 构 造 方法 在 一 个 开源 的 工具 SentencePiece〈 后 面 会 提 
到 ) 中 提供 了 具体 实现 ， 但 运行 效率 比较 低 ， 实 际 上 使 用 这 种 方法 的 人 很 少 。 

推理 时 ，Unigram 的 子 词 切 分 也 采用 从 左 到 右 的 最 大 匹配 方法 。 


3 SentencePiece: 与 语言 无 关 的 子 词 切 分 方法 


仔细 研究 上 面 介绍 的 子 词 切 分 方法 ， 我 们 会 看 到 ， 我 们 在 做 子 词 切 分 (subword tokeniza- 
tion) 之 前 ， 还 需要 先 做 一 次 词语 切 分 (word tokenization )， 以 得 到 一 个 初始 的 词典 (也 就 是 前 
面 BPE 词 表 构 造 方法 中 的 Dictionary)。 但 词语 切 分 也 并 不 是 一 件 简单 的 事情 ， 比 如 : 
。 在 英语 中 ， 标 点 符号 和 字母 、 数 字 之 间 通 常 是 没有 空格 的 ， 尤 其 是 英语 的 句号 O 和 数 
词 中 的 小 数 点 、 缩 号 词 中 的 点 号 完全 相同 ， 需 要 专门 的 算法 来 排除 政 义 ; 
。 在 中 日 娠 等 语言 中 ， 字 符 〈 主 要 是 汉字 ) 之 间 是 没有 空格 的 ， 需 要 专门 引入 外 部 的 词语 切 
分 工具 进行 词语 切 分 ; 
。 每 一 种 语言 都 有 各 自 的 词语 切 分 问题 ， 词 语 切 分 无 法 做 到 语言 无 关 。 
SentencePiece[6] 就 是 为 了 解决 这 一 问题 提出 的 子 词 切 分 方法 。SentencePiece 的 基本 思想 是 ， 
对 于 输入 的 文本 无 需 先 做 词语 切 分 ， 直 接 在 输入 文本 串 的 基础 上 构造 子 词 词 表 和 进行 子 词 切 
分 。 直 观 地 理解 ， 可 以 认为 输入 的 每 个 句子 (甚至 段落 ) 就 是 一 个 单词 ， 然 后 再 构造 词 表 进 行 
子 词 切 分 。 在 这 个 方法 中 ， 空 格 不 作为 词语 之 间 的 分 隔 符 ， 也 就 是 说 ， 空 格 与 其 他 任何 字符 同 
等 对 待 。 按 照 这 种 方式 得 到 的 子 词 词 表 ， 子 词 中 出 现 空 格 ， 或 者 子 词 中 同时 出 现 字 母 、 数 字 或 
者 标点 符号 都 是 很 常见 的 。 论 文 [6] 的 实验 表明 ， 采 用 SentencePiece 的 方法 ， 无 需 先 做 词语 切 分 ， 
可 以 取得 跟 先 做 词语 切 分 方法 可 比 的 效果 。 
SentencePiece 也 可 以 用 于 处 理 中 文 ， 无 需 事先 做 中 文 分 词 就 可 以 直接 使 用 。 也 有 些 人 先 对 
文本 做 中 文 分 词 ， 然 后 再 调用 SentencePiece， 也 是 完全 可 以 的 。 不 过 既然 先 做 了 词语 切 分 ， 后 


= 面 调用 SentencePiece 和 直接 调用 BPE 的 效果 是 一 样 的。 另外 要 特别 注意 : 推理 的 时 候 也 需要 先 用 


相同 的 中 文 分 词 工具 做 词语 切 分 ， 然 后 再 调用 SentencePiece 做 子 词 切 分， 否则 训练 和 推理 子 词 
切 分 过 程 不 一 致 ， 会 导致 效果 很 差 。 

SentencePiece 和 WordPiece 这 两 个 名 词 有 点 容易 造成 混淆 ， 让 人 以 为 SentencePiece 是 跟 WordPiece 一 
样 的 一 种 子 词 切 分 方法 。 实 际 上 这 是 两 个 不 同 层次 的 概念 。WordPiece 和 BPE、Unigram 是 类 似 
的 技术 ， 都 是 用 于 构造 子 词 词 表 和 做 子 词 切 分 的 方法 。SentencePiece 方 法 只 是 强调 子 词 切 分 之 
前 无 需 做 词语 切 分 ， 直 接 从 句子 开始 构造 子 词 词 表 和 进行 子 词 切 分 ， 但 并 没有 规定 子 词 词 表 
构造 和 子 词 切 分 的 算法 。 所 以 即使 采用 SentencePiece 方 法 ， 还 是 需要 选择 WordPiece、BPE 或 
者 Unigram 来 做 子 词 词 表 构造 和 子 词 切 分 的 。 

另外 要 注意 的 是 ，SentencePiece 不 仅仅 是 一 种 子 词 切 分 方法 ， 也 是 一 套 开源 的 工具 。 这 
工具 提供 了 两 个 子 词 词 表 构造 的 工具 : BPE 和 Unigram。 


if 


4 子 词 正 则 化 方法 和 BPE-Dropout 方 法 : 改进 子 词 切 分 不 合理 和 子 词 表 
示 训 练 不 充分 的 问题 


做 过 中 文 分 词 的 人 都 知道 ， 词 语 切 分 是 有 很 多 歧义 的 ， 子 词 切 分 也 不 例外 。 如 果 深 入 观 
察 BPE 或 者 WordPiece 产 生 的 子 词 切 分 结果 ， 会 发 现 很 多 不 合理 的 切 分 。 

BPE 切 分 方法 还 会 导致 一 些 子 词 训练 不 充分 的 问题 。 比 如 一 个 串 ABC 有 可 能 切 分 成 A/BC 或 
者 AB/C， 其 中 A/BC 是 合理 切 分 ，AB/C 是 不 合理 切 分 。 但 由 于 语料库 数据 分 布 的 问题 ， 很 可 能 
导致 语料库 中 AB/C 出 现 的 次 数 大 大 高 于 A/BC， 这 样 BC 虽 然 是 一 个 高 频 子 词 ， 但 在 训练 数据 中 
出 现 的 次 数 却 非常 少 ， 这 就 会 导致 BC 这 个 子 词 的 表示 训练 得 非常 不 充分 。 以 表 1 为 例 ， 这 个 
子 中 ，w+e 实 际 上 是 一 个 高 频 的 子 词 序列 ， 但 我 们 学 到 的 子 词 词 表 甚 至 没有 学 到 这 个 子 词 。 

[5] 提 出 了 一 种 子 词 正则 化 的 方法 来 解决 子 词 切 分 歧义 的 问题 。 其 思想 还 是 引入 一 个 语言 模 
型 (如 Unigram)， 对 于 多 种 切 分 结果 ， 根 据 语 言 模型 的 概率 随机 取样 其 中 一 种 切 分 结果 ， 这 样 
会 使 得 切 分 结果 比较 合理 。 但 这 种 做 法 的 代价 也 是 很 大 的 ， 因 为 需要 引入 一 个 语言 模型 ， 会 导 
致 训练 过 程 中 的 计算 量 大 大 增加 。 

[7] 提 出 一 种 更 加 简单 的 BPE-Dropout 技 术 ， 用 于 改善 BPE 方 法 的 子 词 表示 训练 不 充分 的 问 
题 。 其 思想 非常 简单 ， 就 是 在 语言 模型 训练 阶段 做 子 词 切 分 〈Subword Tokenization) 的 时 候 ， 
以 一 定 的 概率 随机 跳 过 一 些 子 词 合 并 (merge) 操作， 这样 通 过 增加 子 词 切 分 的 随机 性 ， 束 可 以 
使 一 些 原 来 训练 不 充分 的 低频 子 词 出 现 概 率 大 大 增加 ， 从 而 学 到 更 好 的 子 词 表 

另外 要 注意 的 是 ， 无 论 是 子 词 正 则 化 还 是 BPE-Dropout， 这 种 在 切 分 过 程 中 引入 随机 性 的 做 
法 ， 通 常 都 是 只 在 模型 训练 阶段 使 用 ， 以 确保 得 到 更 好 的 模型 。 在 语言 模型 应 用 推理) 阶段 ， 
为 了 保持 一 致 性 和 提高 效率 ， 通 常 还 是 采用 确定 性 的 子 词 切 分 方法 。 
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5 Byte-level BPE (BBPE): 解决 大 字符 集 语言 的 OOV 问 题 


RTE ALS PES, Pid OWA, WPA MN ASRS RL, BEA 
问题 的 : (1) 字符 太 多 ， 甚 至 可 能 超过 预定 的 词 表 大 小 ， 导 致 一 些 字 符 无 法 收入 子 词 词 表 ， 仍 
然 会 有 OOV 问 题 ; (2) 即使 字符 集 足 够 大 ， 把 所 有 字符 都 收入 子 词 词 表 ， 这 会 导致 词 表 中 收入 
大 量 罕见 字 ， 词 表 空 间 利用 率 大 大 降低 ， 而 在 解码 的 时 候 ， 需 要 在 词 表 的 所 有 子 词 空间 上 计 
算 softmax， 大 量 的 罕见 字 出 现 概率 极 低 ， 这 样 也 导致 解码 的 时 间 效 率 大 大 降低 。 

论文 [8] 给 出 了 一 个 mBERT 子 词 词 表 (WordPiece 词 表 )〉 中 每 个 子 词 在 一 个 训练 语料库 中 出 
现 的 频率 分 布 图 (图 1)。 从 图 中 可 以 看 出 ， 这 个 频率 分 布 在 超过 词 表 长 度 60% 以 后 就 快速 下 
降 ， 在 超过 83% 以 后 直接 降 到 0。 说 明 BERT 的 词 表 使 用 是 非常 低 效 的 。 即 使 这 样 mBERT 仍 然 存 
在 OOV 问 题 ， 我 们 在 使 用 中 发 现 ， 著 名 作家 “ 章 褒 和 ”的 “ 论 ” 如 果 写 成 繁体 “ 褒 ”"， 就 无 法 被 mBERT 识 
别 。 

Byte-level BPE “简称 BBPE〉 为 这 一 问题 的 解决 提供 了 有 效 的 办 法 。 BBPE 的 基本 思想 是 : 
把 所 有 的 字符 表示 成 UTF-8 格 式 ， 把 这 个 UTF-8 字 符 串 当成 一 个 字 节 组 成 的 序列 ， 然 后 以 一 个 字 
节 为 最 小 的 组 成 单位 ， 来 构造 BPE 子 词 词 表 和 进行 子 词 切 分 。 这 样 的 话 ，BPE 最 基本 的 组 成 单 
位 最 多 只 有 256 个 ， 不 存在 大 量 罕 见 字符 占用 子 词 词 表 空间 的 问题 。 
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图 1: mBERT 词 表 和 BBPE 词 表 中 的 子 词 在 训练 数据 中 出 现 的 概率 分 布 
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根据 UTEF-8 的 编码 规则 ， 一 个 字符 可 以 表示 成 1-4 个 字 节 ， 长 度 不 等 。 这 样 会 带 来 一 个 问题 ， 
一 些 罕见 字符 会 被 切 分 成 两 个 或 者 多 个 子 词 ， 理 论 上 有 可 能 导致 生成 的 时 候 会 出 现 非法 字符 
(非法 子 词 序列 )， 但 实际 上 这 种 情况 几乎 不 会 出 现 。 因 为 在 训练 数据 中 几乎 不 会 出 现 非法 子 词 
序列 ， 这 种 概率 分 布 是 会 被 神经 语言 模型 学 习 到 的 ， 模 型 生成 的 时 候 也 会 遵从 这 种 概率 分 布 ， 
因此 生成 非法 子 词 序列 的 可 能 性 虽然 理论 上 存在 ， 但 概率 极 低 ， 实 际 上 几乎 不 会 发 生 。 我 们 在 
使 用 BBPE 训 练 GPT 模 型 的 时 候 ， 也 从 来 没有 遇 到 过 生成 非法 字符 的 情况 。 

BBPE 方 法 首先 在 GPT-2 模 型 [9] 中 被 采用 ， 后 来 RoBERTa 模 型 [10] 也 采用 了 BBPE 方 法 做 子 词 
切 分 ， 随 后 的 GPT-3 模 型 [11] 也 延续 了 这 种 方法 。 论 文 [12] 和 [8] 分 别 对 BBPE 在 神经 机 器 翻译 和 
预 训 练 语言 模型 中 的 使 用 效果 进行 了 深入 分 析 。Huggingface 工 具 包 也 提供 了 BBPE 模 型 的 具体 
实现 。 我 们 (华为 诺 亚 方 舟 实 验 室 ) 在 我 们 的 开源 预 训练 语言 模型 代码 库 ! 中 也 提供 了 BBPE 的 
完整 代码 。 另 外 考虑 到 已 有 的 BBPE 实 现 都 没有 对 SentencePiece 的 支持 ， 而 SentencePiece 使 用 的 
人 还 是 很 多 的 ， 我 们 的 代码 库 中 还 提供 了 基于 BBPE 的 SentencePiece 的 实现 方案 。 


6 VOLT: 子 词 词 表 最 优化 方法 


在 构建 子 词 词 表 的 时 候 ， 有 一 个 问题 就 是 : 子 词 词 表 规 模 要 选择 多 大 比较 合适 ? 理论 上 ， 
词 表 越 大 ， 包 含 的 信息 越 多 ， 模 型 效果 当然 更 好 。 但 模型 越 大 ， 占 用 的 空间 就 越 多 ， 推 理 时 间 
也 会 相应 增加 ， 代 价 也 会 越 来 越 高 。 那 么 在 词 表 大 小 和 系统 性 能 之 间 是 否 存在 一 个 合理 的 平衡 
AWE? 论文 [13] 提 出 了 一 种 VOLT 模 型 ， 对 这 一 问题 给 出 了 一 个 明确 的 答案 。 该 论文 获得 了 ACL 
2021 的 最 佳 长 论文 奖 。 

由 于 下 游 任 务 的 性 能 衡量 并 没有 统一 的 方法 ， 该 论文 采用 词 表 的 信息 炳 来 粗略 代表 下 游 任 
务 的 性 能 : TAK, AOI MAS BUR, FAME, PIRES Ree, RIP 
PR TOPE E R aR Ht RBI — RA Fa a Ze, AY AE A ZEA a A ed EN AC) E 
寻找 一 个 合理 的 平衡 点 。 

为 了 寻找 这 个 最 优 的 平衡 点 ， 该 论文 引入 了 边际 收益 的 概念 : 将 词 表 的 增 大 理解 为 投入 ， 
词 表 信息 粹 的 降低 理解 为 收益 。 该 论文 定义 了 词 表 边际 收益 (MUV) 这 个 衡量 指标 ， 就 是 每 增 
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很 高 的 ， 随 着 词 表 越 来 越 大 ， 这 种 边际 收益 会 越 来 越 低 。 

为 了 获得 一 个 MUV 最 大 的 词 表 ， 该 论文 把 词 表 搜索 问题 转 成 了 一 种 最 优 运输 问题 ， 该 问题 
可 以 在 多 项 式 时 间 内 用 动态 规划 方法 求解 。 在 52 个 方向 的 机 器 翻译 实验 表明 ， 采 用 该 方法 可 以 
将 词 表 规 模 降 低 到 基线 系统 的 30%， 但 机 器 翻译 的 性 能 总 体 持平 甚至 略 有 提高 。 
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7 总 结 
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本 文 主要 综述 了 基于 神经 网 络 的 自然 语言 处 理 方法 中 采用 的 子 词 切 分 方法 。 我 们 首先 介 
绍 了 子 词 切 分 问题 的 来 由 : 封闭 词 表 假设 所 带 来 的 集 外 词 COOV) 问题 ， 以 及 为 什么 要 采用 
子 词 切 分 来 解决 这 一 问题 。 其 次 我 们 介绍 了 构造 子 词 词 表 和 子 词 切 分 的 常用 方法 ， 包 括 BPE、 
WordPiece 和 Unigram。 人 然后 我 们 介绍 了 子 词 切 分 技术 所 面临 的 一 些 相关 问题 及 其 解决 办 法 ， 包 
括 : (1) 子 词 切 分 之 前 需要 先进 行 词语 切 分 的 问题 ， 以 及 避免 该 问题 可 以 采用 的 SentencePiece 方 
去 ; (2) 切 分 歧义 问题 和 子 词 表示 训练 不 充分 问题 ， 以 及 解决 这 一 问题 的 子 词 规范 化 方法 和 BPE- 
dropout 方 法 ; (3) 大 字符 集 问题 ， 以 及 解决 这 一 问题 的 BBPE 方 法 ; (4) 词 表 最 优化 问题 ， 以 及 
解决 这 一 问题 的 VOLT 方 法 。 

子 词 切 分 是 神经 NLP 方法 的 最 基本 的 技术 之 一 ， 全 面 了 解 这 一 技术 有 利于 更 好 地 理解 基于 
神经 网 络 的 NLP 模型 ， 并 设计 更 好 的 NLP 系统 。 
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